智能论文笔记

A Highly Effective Low-Rank Compression of Deep Neural Networks with Modified Beam-Search and Modified Stable Rank

Moonjung Eo , Suhyun Kang , Wonjong Rhee

分类：机器学习 | 人工智能 | 计算机视觉

2021-11-30

压缩已成为必不可少的深度学习研究主题之一，特别是对于具有有限的计算能力和存储容量的边缘设备。在主要压缩技术中，已知通过矩阵分解的低秩压缩具有两个问题。首先，需要广泛的调整。其次，由此产生的压缩性能通常不令人印象深刻。在这项工作中，我们提出了一种低秩压缩方法，该方法利用修改的光束搜索自动等级选择和压缩型培训的修改稳定等级。得到的BSR（波束搜索和稳定等级）算法仅需要调谐所需压缩比的单个封路数据计。 BSR在精度和压缩比权衡曲线方面的性能转出优于先前已知的低秩压缩方法。此外，BSR可以与最先进的结构修剪方法进行或更好地执行。与修剪一样，BSR可以容易地与量化进行额外压缩。

translated by 谷歌翻译

QUAK: A Synthetic Quality Estimation Dataset for Korean-English Neural Machine Translation

Sugyeong Eo , Chanjun Park , Hyeonseok Moon , Jaehyung Seo , Gyeongmin Kim , Jungseob Lee , Heuiseok Lim

分类：自然语言处理

2022-09-30

With the recent advance in neural machine translation demonstrating its importance, research on quality estimation (QE) has been steadily progressing. QE aims to automatically predict the quality of machine translation (MT) output without reference sentences. Despite its high utility in the real world, there remain several limitations concerning manual QE data creation: inevitably incurred non-trivial costs due to the need for translation experts, and issues with data scaling and language expansion. To tackle these limitations, we present QUAK, a Korean-English synthetic QE dataset generated in a fully automatic manner. This consists of three sub-QUAK datasets QUAK-M, QUAK-P, and QUAK-H, produced through three strategies that are relatively free from language constraints. Since each strategy requires no human effort, which facilitates scalability, we scale our data up to 1.58M for QUAK-P, H and 6.58M for QUAK-M. As an experiment, we quantitatively analyze word-level QE results in various ways while performing statistical analysis. Moreover, we show that datasets scaled in an efficient way also contribute to performance improvements by observing meaningful performance gains in QUAK-M, P when adding data up to 1.58M.

translated by 谷歌翻译

Towards Daily High-resolution Inundation Observations using Deep Learning and EO

Antara Dasgupta , Lasse Hybbeneth , Björn Waske

分类：计算机视觉 | 机器学习

2022-08-10

卫星遥感提供了一种具有成本效益的概要洪水监测的解决方案，卫星衍生的洪水图为传统上使用的数值洪水淹没模型提供了一种计算有效的替代方法。尽管卫星碰巧涵盖正在进行的洪水事件时确实提供了及时的淹没信息，但它们受其时空分辨率的限制，因为它们在各种规模上动态监测洪水演变的能力。不断改善对新卫星数据源的访问以及大数据处理功能，就此问题的数据驱动解决方案而言，已经解锁了前所未有的可能性。具体而言，来自卫星的数据融合，例如哥白尼前哨，它们具有很高的空间和低时间分辨率，以及来自NASA SMAP和GPM任务的数据，它们的空间较低，但时间较高的时间分辨率可能会导致高分辨率的洪水淹没在A处的高分辨率洪水。每日规模。在这里，使用Sentinel-1合成孔径雷达和各种水文，地形和基于土地利用的预测因子衍生出的洪水淹没图对卷积神经网络进行了训练，以预测高分辨率的洪水泛滥概率图。使用Sentinel-1和Sentinel-2衍生的洪水面罩，评估了UNET和SEGNET模型架构的性能，分别具有95％的信心间隔。精确召回曲线（PR-AUC）曲线下的区域（AUC）被用作主要评估指标，这是由于二进制洪水映射问题中类固有的不平衡性质，最佳模型提供了PR-AUC 0.85。

translated by 谷歌翻译

A Self-Supervised Automatic Post-Editing Data Generation Tool

Hyeonseok Moon , Chanjun Park , Sugyeong Eo , Jaehyung Seo , SeungJun Lee , Heuiseok Lim

分类：自然语言处理

2021-11-24

自动编辑（APE）的数据建筑需要广泛而专家级别的人力努力，因为它包含一个涉及识别句子中的错误并提供合适的修订的精心级别。因此，我们开发了一个自我监督的数据生成工具，可作为Web应用程序部署，这最大限度地减少了人类监督，并从并行语料库构建了具有英语作为目标语言的多种语言对的个性化浏览数据。可以使用此工具进行数据为中心的猿类研究，涉及许多尚未研究的语言对，由于缺乏合适的数据而尚未研究。

translated by 谷歌翻译

A New Tool for Efficiently Generating Quality Estimation Datasets

Sugyeong Eo , Chanjun Park , Jaehyung Seo , Hyeonseok Moon , Heuiseok Lim

分类：自然语言处理

2021-11-01

质量估算数据（QE）培训的数据昂贵，需要大量的人工劳动力。在这项研究中，我们专注于数据以数据为中心的方法，同时执行QE，随后提出一个完全自动的伪QE数据集生成工具，通过仅接收单根或并行语料库作为输入而产生QE数据集。因此，通过数据增强或鼓励多种语言对利用QE的适用性来增强QE性能。此外，我们打算公开发布这款用户友好的QE数据集生成工具，因为我们认为此工具为社区提供了开发QE数据集的新的，廉价的方法。

translated by 谷歌翻译